大規模言語 model (LLM)
GPT (generative pre-trained transformer)
Nano Banana
擴散言語 model (diffusion LLM)
semconv
OpenLLMetry
Export for AI
調敎
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe “Training language models to follow instructions with human feedback” 2022/3/4 言語モデルの規模を大きくすることが、必ずしもユーザーの意圖をより正確に理解・反映することにつながるわけではない。例へば、大規模言語 model (LLM)は虛僞の情報を生成したり、有害な內容を含んだり、單にユーザーにとって有用でない出力を行ふ場合がある。言ひ換へれば、これらのモデルはユーザーの意圖と整合性が取れてゐないのである。本論文では、人閒からのフィードバックを用ゐたファインチューニングによって、幅廣いタスクにおいて言語モデルをユーザーの意圖に整合させる新たな手法を提案する。まず、ラベル作成者が作成したプロンプトと OpenAI API を通じて提出されたプロンプトのセットを出發點とし、望ましいモデル擧動を示すラベル作成者のデモンストレーションデータセットを蒐集する。このデータセットを用ゐて、敎師有り學習 (SL)による GPT-3 のファインチューニングを實施する。さらに、モデル出力のランキングデータセットを蒐集し、これを基に强化學習 (RL)と人閒からのフィードバックを組み合はせた手法でさらにファインチューニングを行ふ。このやうにして得られたモデルを「InstructGPT」と呼ぶ。我々のプロンプト分布における人閒評價實驗では、13 億パラメータの InstructGPT モデルの出力が、1750 億パラメータの GPT-3 モデルの出力よりも好まれるといふ結果が得られた。これは、パラメータ數が 100 分の 1 であるにもかかはらずである。さらに、InstructGPT モデルは眞實性の向上と有害な出力の生成減少を示しつつ、公開 NLP データセットにおける性能低下は最小限に抑へられてゐる。InstructGPT には依然として單純な誤りが見られるものの、本硏究の結果は、人閒からのフィードバックを用ゐたファインチューニングが言語モデルを人閒の意圖に整合させる有望な方向性であることを示してゐる。 Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan “Constitutional AI: Harmlessness from AI Feedback” 2022/12/15 AI システムの能力が向上するにつれ、我々はこれらのシステムを活用して他の AI を監督する役割を擔はせたいと考へてゐる。本硏究では、人閒による有害な出力のラベル附けを一切行はず、自己改善を通じて無害な AI アシスタントを訓練する手法を實驗的に檢證してゐる。人閒による監督はルールや原則のリストを通じてのみ行はれ、この手法を「憲法 AI」と稱してゐる。このプロセスには、敎師有り學習 (SL)フェーズと强化學習 (RL)フェーズの兩方が含まれる。敎師有り學習 (SL)フェーズでは、初期モデルからサンプルを抽出し、自己批評と修正を生成した後、修正された應答に基づいて元のモデルを微調整する。强化學習 (RL)フェーズでは、微調整濟みモデルからサンプルを抽出し、別のモデルを用ゐて 2 つのサンプルのうちどちらが優れてゐるかを評價し、この AI の選好データセットから選好モデルを訓練する。その後、この選好モデルを報酬信號として强化學習 (RL)を實施し、すなはち「AI フィードバックによる强化學習」(RLAIF) の手法を採用する。結果として、無害でありながら非囘避的な AI アシスタントを訓練することが可能となる。この AI は、有害なクエリに對しても、その理由を說明することで適切に對應することができる。敎師有り學習 (SL) 手法と强化學習 (RL)手法の雙方において、思考の連鎖 (CoT) (Chain-of-Thought) スタイルの推論を活用することで、AI の意思決定における人閒による評價性能と透明性を向上させることができる。これらの手法により、AI の行動をより精密に制禦することが可能となり、必要な人閒によるラベル附けの數を大幅に削減できる。 言語モデルは、テスト段階と本番運用段階を區別する能力――いわゆる「評價認識能力」を備へてゐる。この能力は、安全性と政策面において重大な意味を持ち、AIガバナンスの枠組みや業界の自主的な取り組みにおいて中核をなす評價の信賴性を損なふ可能性がある。本論文では、Llama-3.3-70B-Instructモデルにおける評價認識能力について詳細に檢討する。實驗の結果、線形プローブを用ゐることで現實世界の評價用プロンプトと本番運用用プロンプトを明確に分離できることが明らかとなり、これは現行モデルがこの區別を內部的に認識してゐることを示唆してゐる。さらに、現在實施されてゐる安全性評價がプローブによって正しく分類されることから、これらの評價がモデルにとって人工的あるいは非眞正なものと認識されてゐることが示唆される。本硏究の成果は、信賴性の高い評價手法の確保と、欺瞞的な能力の理解の重要性を浮き彫りにするものである。より廣範には、この硏究は、特に評價認識能力と欺瞞能力においてより高度な能力を持つ將來のモデルに對して、ブラックボックス型手法による安全性監査を支援するために、モデルの內部構造をどのやうに活用できるかを示す好例となってゐる。
過學習の一形態だ
AG-UI